Reinforcement Learning Approaches to Flocking with Fixed-wing Uavs in a Stochastic Environment Approches D’apprentissage Par Renforcement Pour Les Essaims De Drones À Voilure Fixe Dans Les Environnements Stochastiques
نویسندگان
چکیده
In the past two decades, unmanned aerial vehicles (UAVs) have demonstrated their efficacy in supporting both military and civilian applications, where tasks can be dull, dirty, dangerous, or simply too costly with conventional methods. Many of the applications contain tasks that can be executed in parallel, thus can benefit in terms of effectiveness from deploying multi-UAVs working together as a force multiplier. However, to do so requires autonomous coordination among the UAVs, similar to swarming behaviors seen in animals and insects. This research looks at flocking with fixed-wing UAVs in the context of a model-free reinforcement learning problem, structured as a Markov decision process. The advantage of a model-free approach is that it can be applied to different platforms without the plant and disturbance models, which implies greater adaptability to changing environments and unforeseen situations. We propose two learning approaches that enable the agents, modeled as small fixed-wing UAVs, to learn control policies that facilitate flocking in a leaderfollower topology, while operating in a non-stationary stochastic environment. The first approach is based on Peng’s Q(λ) with a variable learning parameter, which learns through direct reinforcement learning. The second approach is based on Sutton’s Dyna-Q where on-line learning, model learning, and planning are integrated to improve sample efficiency. Our approaches are compared to existing works by evaluating the respective policies at maintaining the desired flocking behavior according to a cost function. Simulation results demonstrate that with the two proposed learning approaches, the agents are able to learn policies that facilitate flocking with a single leader, more importantly, the agents are able to adapt their policies to non-stationary stochastic environments.
منابع مشابه
Integrating Machine Learning Techniques in a Guided Discovery Tutoring Environment: MEMOCAR
This chapter presents how Machine Learning Techniques can effectively contribute to improve the quality of interactions in Guided Discovery Tutoring Environments (GDTE) . We review several approaches to integrate Machine Learning in ITS. Most of these approaches use concept learning from examples to maintain a Student Model. We go along presenting an alternative use of induction techniques to l...
متن کاملSimulation of a UAV ground control station
In this article we present the development of a UAV ground control station simulator. We propose a module based description of the architecture of this simulator. We present the nonlinear model (six degree-of-freedom) of a fixed wing aircraft. And finally we present automatic control for a flight path. The control system is multi-layered. For fixedwing UAVs, it consists of a flight-path control...
متن کاملReconnaissance d'actions par modélisation du mouvement
Résumé. Cet article propose une approche utilisant les modèles de direction et de magnitude de mouvement pour détecter les actions qui sont effectuées par des êtres humains dans des séquences vidéo. Des mélanges Gaussiens et de lois de von Mises sont estimés à partir des orientations et des magnitudes des vecteurs du flux optique calculés pour chaque bloc de la scène. Les paramètres de ces modè...
متن کاملFiltrage bayésien de la récompense
Résumé : Une large variété de schémas d’approximation de la fonction de valeur a été appliquée à l’apprentissage par renforcement. Cependant, les approches par filtrage bayésien, qui se sont pourtant montrées efficaces dans d’autres domaines comme l’apprentissage de paramètres pour les réseaux neuronaux, ont été peu étudiées jusqu’à présent. Cette contribution introduit un cadre de travail géné...
متن کاملApprentissage par Renforcement Inverse pour la Simulation d’Utilisateurs dans les Systèmes de Dialogue
Résumé : Les systèmes de dialogue sont des interfaces homme-machine qui utilisent le language naturel comme medium d’interaction. La simulation d’utilisateurs a pour objectif de simuler le comportement d’un utilisateur humain afin de générer artificiellement des dialogues. Cette étape est souvent essentielle dans la mesure où collecter et annoter des corpus de dialogues est un processus coûteux...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
دوره شماره
صفحات -
تاریخ انتشار 2015